Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/38295
Comparte esta pagina
Título : | Additive margin softmax e funções sinc para reconhecimento de locutor |
Autor : | NUNES, João Antônio Chagas |
Palabras clave : | Inteligência computacional; Reconhecimento de locutor |
Fecha de publicación : | 2-mar-2020 |
Editorial : | Universidade Federal de Pernambuco |
Citación : | NUNES, João Antônio Chagas. Additive margin softmax e funções sinc para reconhecimento de locutor. 2020. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2020. |
Resumen : | Reconhecimento de locutor é uma tarefa desafiante com aplicações em diversas áreas, como autenticação, automação e segurança. O SincNet é um novo modelo baseado em aprendizado profundo (deep learning) com resultados promissores para tarefa de reconhecimento de locutor. Um fator crucial no treinamento de modelos de deep learning é a função de ativação utilizada, que possui impacto direto no desempenho do modelo treinado. A função de ativação Softmax é amplamente utilizada neste contexto, principalmente em problemas de classificação. Entretando, em alguns tipos de problemas, como por exemplo o reconhecimento facial, a amsoftmax tem apresentado resultados significativos quando comparados à versão tradicional do Softmax. A amsoftmax é uma nova função de ativação baseada na Softmax que introduz uma margem de separação aditiva entre as classes mapeadas. A margem de separação aditiva força as amostras da mesma classe a ficarem mais próximas umas das outras enquanto maximiza a distância de amostras de classes distintas. Neste trabalho foram propostas variações de modelos tradicionais considerando componentes como amsoftmax e as camadas sinc do modelo SincNet para o problema de reconhecimento de locutor. Dentre os modelos propostos se destacam o amsincnet e o AM-MobileNet1D. O amsincnet é um modelo baseado no SincNet que usa a função de ativação amsoftmax, e com isso foi possível obter um erro de classificação 55% menor que o obtido pelo SincNet tradicional nas bases de dados TIMIT e MIT, sem aumento significativo na complexidade do modelo. O AM-MobileNet1D é uma versão da rede MobileNet V2 adaptada para trabalhar com sinais de áudio, que apresentou resultados até sete vezes mais rápidos que o modelo base SincNet, sem prejuízo no desempenho do modelo. |
URI : | https://repositorio.ufpe.br/handle/123456789/38295 |
Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO João Antônio Chagas Nunes.pdf | 3,51 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons